#Kimi K3
Kimi K2.5登頂開源第一!15T資料訓練秘籍公開,楊植麟劇透K3
開源熱榜第一輪流做,現在花落Kimi。在Hugging Face上,Kimi K2.5登上了Trending榜首,下載量超過了5.3萬。Kimi K2.5主打Agent能力,在HLE-Full、BrowseComp等測試集中,成績超越了GPT-5.2、Claude 4.5 Opus以及Gemini 3 Pro等旗艦閉源模型。而且極具性價比,在BrowseComp上達到比GPT-5.2更高的表現,Kimi K2.5的資金消耗僅有不到5%。現在,官方的技術報告也已經亮相,Kimi K2.5怎樣練成,我們可以從中窺探一些答案。原生多模態,15T Token混合訓練Kimi K2.5在K2的架構基礎上,投入了15T的視覺與文字混合Token進行持續預訓練。它選擇了一條原生多模態的技術路線,讓同一套參數空間直接處理視覺訊號與文字邏輯。在15T這樣龐大的資料量級下,視覺理解與文字推理能力實現了同步增強,一改往日“此消彼長”的局面。這種統一的參數架構,讓模型能夠像理解語法結構一樣,精準解析像素背後的邏輯語義。有了這套原生底座,K2.5解鎖了“視覺程式設計”能力。因為能在像素層面進行推理,它具備了從視訊流直接逆向推導程式碼的能力。面對一段包含複雜滾動觸發特效或動態互動佈局的網頁演示視訊,模型能夠準確捕捉視覺元素隨時間軸變化的規律,並將其直接對應為可執行的前端程式碼。這一過程跳過了“視覺-文字”的中間環節,讓開發需求能夠以最直觀的視覺形式傳遞給模型,實現了從設計演示到程式碼實現的無損轉化,即便是極其複雜的動態互動邏輯也能被精準還原。為瞭解決程式碼能跑但樣式不對的問題,K2.5還整合了自主視覺偵錯機制,在程式碼生成並渲染出介面後,模型會呼叫視覺感知能力對實際運行的頁面進行驗收。一旦發現佈局錯位、樣式偏差或動畫異常,模型會自動觸發文件查詢工具,查閱相關技術文件定位問題,並對程式碼進行修正。這種“生成-觀察-查閱-修復”的自動化閉環,模擬了高級工程師的偵錯流程,讓模型具備了獨立完成端到端軟體工程任務的可靠性。超大規模“智能體叢集”為了能更好地解決複雜任務,Kimi K2.5還搭載了Agent Swarm架構。這是一套能自主建構百人規模數位化團隊的平行系統,讓模型獲得了“分身”能力,可以瞬間建立並編排多達100個子智能體,並支援呼叫1500個工具的平行工作流。這種機制將全網深度搜尋或海量資料分析等複雜任務,拆解為無數個同步進行的子任務,利用叢集算力大幅壓縮了處理時間。指揮這支龐大團隊運轉的是PARL(平行智能體強化學習)框架。該框架建立了一套嚴密的指揮體系,由核心的調度器和眾多子智能體構成。調度器如同指揮官,負責宏觀層面的任務拆解與分發;子智能體則作為執行層,在參數凍結的狀態下專注於高效完成具體指令。這種動靜結合的設計,既賦予了系統靈活規劃的能力,又保障了大規模平行操作的邏輯嚴密性。為了讓模型學會高效分工,訓練過程採用了一套階段性獎勵塑造策略。系統在初期會優先激勵調度器進行平行化探索,培養其“多管齊下”的直覺;隨著訓練深入,獎勵重心平滑過渡至任務的最終成功率。這種循序漸進的訓練方式,讓模型建立了在保證結果精準的前提下,最大化利用並行優勢的思維習慣。在效率評估上,系統引入了臨界步驟作為核心指標,基於平行計算的關鍵路徑原理,聚焦於調度開銷與最慢子智能體的耗時。這種機制倒逼模型在決策時,必須優先考慮如何縮短端到端的實際等待時間。只有在能切實提升響應速度的情況下,系統才會增加平行度,從而在極致速度與計算資源消耗之間找到了最佳平衡。楊植麟劇透Kimi K3K2.5上線後不久,月之暗面的三位創始人——楊植麟、周昕宇和吳育昕現身Reddit,來了一場長達3小時的AMA問答。面對全球開發者和的提問,他們直接把程式碼背後的思考、未來的劇透甚至尷尬的Bug都攤開來聊了個透。對於大家最關心的下一代Kimi K3,團隊給出了一個相當硬核的預告——它很可能基於線性注意力機制。楊植麟更是直言,雖然不敢打包票,但K3相比K2.5那怕沒有10倍的提升,也絕對會有質的飛躍。針對K2.5偶爾會自稱Claude的趣聞,團隊也給出了坦誠的解釋——這是因為Kimi“吃”了太多高品質的程式設計訓練資料,而這些資料裡充斥著Claude的名字 。這就像讀了太多某位作家的書,說話難免帶上對方的口頭禪。此外他們也對算力焦慮問題進行了回應,演算法負責人周昕宇拋出了一句“創新往往誕生於約束之中(Innovation loves constraints)” 。在他們看來,堆砌算力不是通往AGI的唯一路徑,在有限的資源下逼出更高效的演算法、更聰明的架構,才是這家實驗室真正的“登月”野心 。 (量子位)